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摘要 本 文 讨论 数量 分 支 分 类 ,提出 一 种 构造 演化 树 的 实际 计算 方法 , 称 为 最 大 同步 法 。 桔梗 
科 6 个 种 的 数据 作为 例子 进行 说 明 ,并 对 这 种 方法 做 简单 的 评论 和 比较 。 
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定量 的 分 支 分 类 是 数量 分 类 学 的 一 个 重要 分 支 。 它 与 表征 分 类 的 定量 方法 相对 立 > 
二 者 分 别 来 自 两 种 不 同 生 物 学 分 类 观点 , 即 表征 分 类 和 分 支 分 类 。 在 数量 分 类 学 中 ,表征 
分 类 发 展 较 早 ,理论 和 方法 都 比较 完善 ;分 支 分 类 起 步 较 晚 ， 方 法 很 不 完善 。 由 于 分 支 分 
类 建立 在 生物 演化 的 谱系 关系 上 ,体现 了 生物 系统 发 育 真正 的 进化 关系 ,因而 受到 许多 生 
物 分 类 学 家 的 重视 。 特 别 在 生物 类 群 的 系统 学 研究 、 进 化 理论 的 研究 和 其 些 遗 传 学 问题 
的 研究 ,这些 研究 都 离 不 开 分 支 分 类 。 

分 支 分 类 的 生物 学 理论 于 50 年 代 由 德国 昆虫 学 家 W. Hennig 提出 。 他 的 一 本 名 
为 《系统 发 育 分 类 学 》(Phylogenetic Systematics) 一 书 全 面 地 阐述 了 分 支 分 类 观点 。60 
年 代 分 支 分 类 很 快 被 引入 数量 分 类 学 。 早期 从 事 分 支 分 类 数学 方法 研究 的 人 有 W. H. 
Wagner, A. W. F. Edwards 和 L. L. Cavalli-Sforza, BR J. S. Farris, J. H. 
Camin 和 R. R. Sokal, Camin 和 Sokal 提出 了 分 支 分 类 节省 原理 〈 即 最 短 进 化 路 径 
原理 ), 这 一 原理 为 寻求 分 支 分 类 的 分 支 谱系 图 葛 定 理论 基础 。70 年 代 又 有 G. F. Esta- 
brook 和 F. R. McMorris 等 ,这 些 学 者 从 事 大 量 的 理论 研究 工作 ,其 中 许多 属于 数学 理 
论 与 方法 方面 的 探讨 。 

当前 ,分 支 分 类 的 理论 工作 有 了 较 大 的 进步 ,分 支 分 类 的 数学 理论 被 构筑 在 图 论 和 抽 
象 代 数 的 基础 上 ， 许 多 数学 家 关心 抽象 概念 的 引进 和 数学 结论 的 严谨 证 明 。 可 是 在 分 类 
的 实 中 中， 为 分 类 学 家 提供 实际 使 用 的 方法 却 为 数 其 少 。 Sneath 和 Sokal 的 数量 分 类 
学 经 典 著 作 《 数 量 分 类 学 数量 分 类 的 原理 和 实践 》, 也 只 介绍 了 Wagner 树 和 单元 法 
等 为 数 不 多 的 几 种 方法 。 随 着 分 支 分 类 应 用 的 发 展 ， 这 些 方法 远 远 不 能 满足 各 种 生物 学 
问题 的 需要 。 分 类 学 家 需要 更 合适 的 分 支 分 类 方法 ， 需 要 利用 电子 计算 机 进行 谱系 分 析 
的 新 手段 。 为 此 目的 ,作者 从 现 有 的 分 支 理 论 中 引出 一 种 较 好 的 方法 , 供 系统 学 和 分 类 学 
研究 工作 使 用 。 、 
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概念 与 思路 


与 表征 分 类 一 样 , 被 分 类 的 实体 称 为 分 类 运算 单位 ( 简 作 分 类 单位 、 或 OTU)， 根 据 
推断 而 得 到 的 演化 祖先 , 称 为 假设 分 类 单位 ( 简 作假 设 单位 ,或 HTU)。 为 了 讨论 问题 广 
便 ,引用 统一 的 名 词 ,把 分 类 单位 和 假设 单位 都 一 律 称 为 分 支 分 类 运算 单位 简 作 分 文 间 
位 ,或 CTU). 

分 类 学 家 研究 的 分 类 问题 ,最 初 由 分 类 单位 组 成 被 分 关 锐 ,如 果 有 个 分 类 单位 ， 配 
合 a 个 性 状 。 在 此 要 求 对 性 状 状态 的 演化 关系 都 已 分 析 清 楚 。 性 状 的 编码 都 取 非 负 束 
数 ,并 且 规 定 从 0 开始 。 依 演化 的 次 序 从 小 到 大 顺序 增加 。 从 这 个 规定 去 理解 ,编码 为 0 
的 狂 关 状态 在 所 研究 的 范围 应 该 是 最 原始 的 状态 。! 个 分 类 单位 ，" 个 性 状 的 全 部 信友 
值 构成 原始 数值 矩 降 : 
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其 中 行 代 表 分 类 单位 向 量 , 列 代表 性 状 向 量 。 这 个 矩阵 是 分 支 分 类 运算 的 出 发 点 。 

为 了 定量 地 表示 演化 程度 ,引进 绝对 距离 系数 。 如 果 有 了 两 个 分 支 单位 ,从 原始 数值 矩 
阵 获得 它们 的 向 量 表示 一 《x tare tin) 和 tj) = (ea xpzis)， 演 化 距离 计算 如 
下 : 


d(x, xj) 一 > [aig — xa] (1) 
k=1 


如 果 性 状 编码 都 取 整 数 ， 演 化 距离 4 是非 负 整数 。 每 个 单位 值 称 为 1 步 ， 作为 演化 距离 
的 基本 单位 。 

在 演化 过 程 中 ,分 支 单位 x, Be, 同时 从 某 个 分 支 单位 经 x; 直接 演化 而 来 , 称 * 为 
x, 和 xs 的 最 近 共 同 祖 先 。 根 据 分 支 分 类 的 中 位 信和 原则 , x, 的 性 状 分 量 应 取 x, A x, 相应 
性 状 分 量 的 最 小 值 BN: 

zk 一 min( xyes Yet) (R= 1,2, +++, 2) (2) 

生物 的 进化 具有 树 状 演化 结构 ， 以 图 论 中 的 树 图 表示 生物 演化 关系 是 很 自然 的 事 。 
我 们 把 代表 生物 演化 关系 的 图 称 为 演化 图 。 生 物 演 化 不 可 能 出 现 倒 退 ， 因此 演化 图 在 演 
化 的 路 径 上 没有 回路 。 还 需 假 设 任意 两 个 已 经 分 化 了 的 分 支 单位 不 可 能 再 融合 而 产生 网 
状 进 化 ,并 且 被 考虑 的 分 类 群 是 单 源 的 , 即 都 由 一 个 共同 的 祖先 演化 而 来 ， 最 后 演化 图 中 
的 演化 过 程 还 必须 与 性 状 的 进化 保持 一 致 。 满足 以 上 条 件 的 演化 图 实际 上 是 一 棵 有 向 树 
图 , 称 为 分 支 树 系 图 , 见 图 1。 

演化 图 中 的 点 代表 分 支 单位 称 为 分 支点 ,两 相 邻 接 的 分 Aix, Mz; 由 具 方 向 的 线段 
1 一 (xi， zj) 连接 ,该 连 线 称 为 分 支线 。 分 支线 的 两 个 端点 ， 演 化 开始 的 一 端 x 称 为 起 
点 ， 另 一 端点 x; 称 为 终点 。 整个 演化 图 由 许多 分 支点 和 相应 的 分 支线 构成 分 支线 起 点 与 
终点 间 依 公式 (1) 确定 的 演化 距离 称 为 分 支线 的 演化 长 度 。 演化 图 所 有 分 支线 的 演化 长 
度 总 和 称 为 演化 图 的 演化 长 度 。 
















































































图 1 分 支 树 系 图 : 一 模 截 线 表示 一 个 演化 步 ,在 旁 的 数字 是 发 生 演 化 的 性 状 。 
Fig. 1 Cladogram: A cross-bar indicates an evolutionary step for the 
character whose number is plased beside it. 


(4) 最 大 同步 法 ,演化 长 度 一 15 步 Laie = 13 步 


Method of maximal same step length. Evolutionary length = 15 steps. Loto = 13 steps. 


Cb) 单元 法 ?演化 长 度 一 20 H Lyin = 13 步 


Monothetic method, Evolutionary length = 20 ‘steps. Lmin = 13 steps 


代表 生物 演化 关系 的 演化 图 ， 在 一 切 可 能 构造 的 图 中 其 演化 长 度 取 最 小 值 。 这 就 是 
所 谓 最 短 演化 路 径 原理 。 为 了 使 演化 图 的 演化 长 度 达到 最 小 值 , 从 公式 (1) 可 知 在 计算 演 
化 长 度 求 和 时 ， 应 尽量 把 相同 性 状 状态 的 进化 都 表现 在 同一 个 分 支线 上 。 如 果 每 个 性 状 
状态 的 进化 都 仅 在 一 个 分 支线 上 计 入 一 次 ,最 节省 的 演化 长 度 必 是 
Losin heed >> m; 


其 中 mi 代表 第 i 个 性 状 的 最 大 编码 值 。 
为 了 获得 最 小 演化 长 度 的 演化 图 ,引信 同步 系数 的 概念 ,两 分 支点 二 (wi tas tin) 
和 xj = (ri Xj: xin )» 值 
$i = Dy min(xit mj) (3) 


k=1 
称 为 分 支点 x; 和 zj 的 同步 系数 。 在 构造 演化 图 的 过 程 中 ,将 同步 系数 最 大 的 一 对 分 支点 
按 演化 的 逆 方 向 优先 结合 ， 导 出 其 最 近 共 同 祖先 。 这 样 的 结合 将 使 较 多 的 性 状 在 计算 演 
化 长 度 时 仅 计 和 一次， 从 而 达到 节省 演化 长 度 的 要 求 。 这 就 是 最 大 同步 分 支 分 类 方法 的 
基本 思想 。 


运 算 步 又 
依照 最 大 同步 系数 分 支 单位 首先 结合 的 思想 ， 设 计 分 支 分 类 运算 。 运 算 在 数据 矩阵 


和 系数 矩阵 上 以 多 次 循环 的 过 程 进 行 。 数据 甜 阵 放置 该 次 循环 中 被 处 理 的 分 支 单位 数 
据 , 行 代表 CTU, 列 代表 性 状 。 系 数 矩 阵 放置 被 处 理 CTUs 之 间 的 同步 系数 值 。 行 所 代 
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表 的 CTU 与 数据 矩阵 完全 一 致 , 列 所 代表 的 CTU, 排列 次 序 与 行 完 全 相同 。 具 体 运算 
步骤 规定 如 下 : 

1. 按 性 状 状态 的 进化 次 序 进行 性 状 编码 ,每 个 性 状 的 最 原始 状态 取 0 值 ,其 它 状态 依 
进化 次 序 从 小 到 大 取 非 负 整 数 ,得 + FF (CT Us) n 列 (性 状 ) 厌 始 数值 矩阵 置 数据 答 阵 中 。 

2. 利用 公式 (3) 计算 数据 矩阵 中 所 有 分 支 单位 闻 的 同步 系数 Sy (i < 门 , RRS 
阵 中 。 上 次 循环 保留 的 同步 系数 可 以 省 略 计算 。 

3. 从 系数 矩阵 中 找 出 同步 系数 最 大 值 。 假如 就 是 5,,， 由 此 确定 把 分 支 单 位 zy 与 
2, 相 结合 。 若 有 两 个 以 上 同步 系数 达到 最 大 值 , 可 任 择 一 个 执行 。 

4. 根 据 公 式 (2) 求 出 分 支点 xy 与 x4 的 最 近 共同 祖先 x; 的 性 状 分 量 值 。 从 数据 矩阵 
中 删除 分 支 单位 x, 和 xy 的 数据 ,补充 以 新 的 分 支 单位 *,, 矩阵 分 支 单位 ( 行 ) 数 比 原来 减 
lo 

5. 在 分 支 树 系 图 上 作出 从 分 支点 mw 到 分 支点 xy 和 x 的 分 支 关系 ， 并 根据 公式 (1) 


Kl 材 梗 科 6 个 种 分 支 分 类 运算 过 程 


Table. 1 A computing process of cladistic taxonomy on the data of 6 species 



































from campanulaceae 
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ae meds RK BO z Data Matrix 
cycle of CTU Coefficient Matrix Characters 12 3 4 5 6 7 8 
po | pe Stet nee Se ns 
1 x 1 1 100 1 2 0 
2 2x 0 0 01 02 1 0 
3 150 交 0 0 2 12 00 0 
i 4 012% 0 0.0 2 1.0 0 0 
5 6 210% 1110012 1 
6 On 1 3 20 0 0 012 00 0 
2 x 00010210 
3 1 x 0 02 12 000 
1 4 1 2 X 000 2 10 0 0 
7 2 1.0 Xx 111001 2 0 
6 pt 2e 0 3X 060 01 2000 
2 x 0 0 0 102 1 0 
4 ee a 0 0.0.2 1 0 0 0 
ie 7 20% 1110012 0 
8 120% 0 0 012 00 0 
9 x 0000011 «0 
Iv 4 0 0 0 0 2 0 0 0 
02x 00 0 1 200 0 
eee 
9 x 0 0 0 00121 0 
¥ 10 0 x 0 0 0 11 00 0 
VI 11 0000000 
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注 ， 表 中 原始 数据 来 源 见 文献 [101。 原 数据 为 举例 说 明 而 设 ， 仅 取 桔 杯 科 少数 种 ;对 性 状 的 演化 关系 也 未 做 认 
真 研究 ) 作 为 分 支 演算 的 例子 ， 姑 上 且 认 为 原 编码 都 符合 进化 规律 。 由 于 以 上 原因 ,本 例 的 计算 结果 不 能 代表 桔梗 科 的 
真实 情况 。 请 读者 注意 。 3 
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记 下 该 分 支线 的 演化 长 度 和 产生 演化 的 狂 状 。 
若 数据 矩阵 的 分 支 单位 ( 行 ) 数 2， 则 转向 步骤 2 进入 下 一 次 循环 运算 。 否 则 结束 
运算 。 人 
最 后 检查 分 支 树 系 图 中 是 否 出 现 演化 长 度 为 0 的 “分 支线 "。 若 有 ， 将 帘 全 相同 的 起 
点 与 终点 重合 ,取消 演化 长 度 为 0 的 “分 支线 ”。 
以 桔梗 科 6 个 种 的 数据 为 例 ,演算 过 程 列表 于 后 。 运 算 结果 画 出 分 支 树 系 图 ( 见 图 中 














a) 
说 BA 
第 工 次 循环 运算 : ; 
先 根 据 公 式 (3) 计 算 同 步 系数 。 例 如 计算 Se: 
x, 的 性 状 分 量 1 1 1 
z 的 性 状 分 量 0 0 0 
最 小 值 0 0 0 
8 
= > min(zuy ta) = OOF OFOFTOF1L+E14+0=2, 


k=1 
然后 根据 最 大 同步 系数 5;, 一 6 确定 CTU; 与 CTU, 相 结 合 ， 二 者 的 最 近 共 同 祖 
先是 CTU, 
在 分 支 树 系 图 上 作出 分 支点 CTUs, CTU, 和 CTU, 和 相应 的 分 支线 ,表示 从 CTU, 
演化 到 CTU; 和 CTU. 


0 0 
1 0 
0 0 


“Ww 一 
二 一 
oo fo 


第 II 次 循环 运算 : 

根据 公式 (2) 求 得 CTU, 的 性 状 分 量 值 
xs 的 性 状 分 量 111003121 
xi 的 性 状 分 量 1 1 10 0 120 


x 的 性 状 分 量 ( 最 小 值 ) 1 1 1 0 0 1 2 0 
将 CTU, 的 性 状 分 量 数据 置 数 据 矩 阵 中 并 计算 CTU, 与 其 它 分 支 单位 的 同步 系数 。 
例如 





Shan) nites zi 一 0 十 0 十 0 十 0 十 0 十 1 十 1 十 0 一 2， 


R=1 


Seton ta) =OFOFIF0+0+04+04+0=1 


k=1 

其 它 同 步 系 数值 得 自 循环 I 中 的 系数 矩阵 。 

依照 本 次 循环 最 大 同步 系数 值 Sa = 3， 确 定 CTU. 与 CTU, BAS, 二 者 的 最 近 
共同 祖先 是 CTUs。 

在 分 支 树 系 图 中 补充 相应 的 分 支点 和 分 支线 ， 表 示 从 CTUs 分 别 演 化 到 CTU. 和 
CTU; 的 过 程 。 

“第 Il 次 循环 运算 : 

按 公式 (2) 求 CTUs 的 性 状 分 量 值 
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的 性 状 分 量 00212000 
xs 的 性 状 分 量 00012000 
xs 的 性 状 分 量 (最 小 值 ) 0 0 0 1 2 0 0 0 


将 CTU, 的 性 状 分 量 位 置 数 据 矩 阵 中 ,并 计算 Su, Su 和 Sao 例如 


8 
Su 一 Dl min(xats 2) = OF OFOFLHO+FO0+0+4+0=1, 
k=1 


其 它 周 步 系数 来 自 第 :II RBM. . 

本 次 循环 的 最 大 同步 系数 9 = Su 一 2, 任 择 其 中 之 一 。 不 妨 取 ,由 此 确定 CTU, 
和 CTU, 相 结 合 。 最 近 共 同 祖先 是 CTs, 

在 分 支 树 系 图 中 补 人 从 CTU, 到 CTU, 和 CTU, 的 演化 过 程 。 

第 IV 次 循环 运算 : 

计算 CTU, 的 性 状 分 量 值 

















x 的 性 状 分 量 000 10210 
x, 的 性 状 分 量 11100412 0 
xo 的 性 状 分 量 ( 最 小 值 ) 0 0 0 0 0 1 1 0 


将 CTU; 的 性 状 分 量 值 记 人 数据 矩阵 ,并 计算 同步 系数 ， 
So = Sos 从 0， 
Se 一 2 得 自 上 次 循环 。 
最 大 同步 系数 Se 一 2, 确定 CTU, 与 CTU, 相 结 合 ,最 近 共同 祖先 是 ( CTUwo 
在 分 支 树 系 图 中 补 人 从 CTU,。 到 CTU, 和 CTU, 的 演化 过 程 。 


第 V 次 循环 运算 : 

计算 CTU, 的 性 状 分 量 值 
x4 的 性 状 分 量 00021000 
xe 的 性 状 分 量 00 01:20 00 
i0 的 性 状 分 量 ( 最 小 值 ) 0 0 0 1 1 0 .0 0 


数据 矩阵 只 有 CTU; 和 CTUn, 计算 Soo = 00 将 最 后 两 个 分 支 单位 结合 ， 产 生 最 近 共 
同 祖先 CTUu, 即 演化 图 的 祖 源 。 

在 分 支 树 系 图 中 补 人 从 CTUu 到 CTU。 和 CTUw 的 演化 过 程 。 

第 VI 次 循环 运算 : 

从 上 次 循环 运算 的 两 个 分 支 单位 性 状 分 量 得 祖 源 CTUn 的 性 状 分 量 值 。 

数据 矩阵 保留 CTU 的 个 数 < 2, 运算 结束 。 

讨 论 

依照 最 短 演 化 上 距离 原则 ,可 以 确立 分 支 分 类 的 最 优 分 类 判别 标准 。 按 这 个 标准 ,最 大 
同步 法 可 以 获得 接近 最 优 分 类 的 演化 图 。 桔 梗 科 6 个 种 的 数据 ， 其 演算 结果 与 表征 分 类 
的 表征 树 系 图 比较 一 致 ( 见 文 [10]) ,分支 树 系 图 的 演化 长 度 15 步 ,与 Lmis 仅 差 2 步 ,说 
明 此 结果 比较 好 。 与 其 它 方法 比较 。 图 中 b 给 出 了 桔梗 科 6 个 种 相同 数据 使 用 单元 法 的 
运算 结果 ,得 到 的 分 支 树 系 图 演化 长 度 高 达 20 步 。 一 些 运算 的 经 验 初步 证 实 最 大 同步 法 
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通常 比 其 它 一 些 分 支 分 类 方法 能 得 到 较 满意 的 分 类 结果 。 : 

最 大 同步 法 演算 简单 ,易于 计算 机 程序 化 ,是 其 男 一 个 优点 。 最 大 同步 法 没有 复杂 数 
学 计算 ,对 于 一 个 小 规模 数据 ,手工 运算 也 可 以 完成 。 利 用 电子 计算 机 计算 ， 需 要 编写 计 
算 机 程序 检查 全 部 运算 过 程 ,由 多 次 循环 运算 完成 ， 每 次 循环 所 完 的 运算 步骤 规律 性 强 ， 
适合 编写 程序 。 在 设计 程序 时 还 会 发 现 , 它 与 表征 分 类 的 运算 过 程 有 许多 相同 之 处 ,如 果 
已 经 有 一 个 表征 分 类 系统 聚 类 运算 程序 ,只 需 作 部 分 更 改 就 可 以 得 到 最 大 同步 法 的 程序 。 
甚至 可 以 将 它 与 表征 分 类 多 种 方法 统一 在 一 个 计算 机 程序 中 ， 这 将 为 分 支 分 类 研究 工作 
带 来 很 大 的 方便 。 
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AN ALGORITHM FOR CLADISTIC TAXONOMY 一 -METHOD 
OF MAXIMAL SAME STEP LENGTH 


Xu Ke-xve 


(institute of Botany, Academia Sinica) 


Abstract This paper deals with the numerical cladistic taxonomy. A method for 
constructing evolutionary tree (method of maximal same step length) is proposed in the appli- 
cations and practice of cladistic taxonomy. Its algorithm runs as follows: : 

1) According to the order of evolution, characters are coded with nonnegative integers, 
producing the original data matrix. 

2) Calculate the same step coefficients Sy (i#}) by the formula (3) and form the coef- 
ficient matrix. 

3. Find the maximal value Spa of the same step coefficients in the coefficient matrix. 

4) According to the maximal same step length Syq, the most recent common ancestor CTU, 
of CTU, and CTU, can be determinated by (2). 

5) draw the cladistic edges of cladogram representing the evolutionary relationship from 
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OTU, to OTU and OTUg. : 

If the number of CTUs in the data ices: go to (2); otherwise stop. 

An example of 6 species from the family Campanulaceae is given for illustration (See 
Table 1). 

In general case, the evolutionary length of the cladogram obtained by this method is shor- 
ter than that by monothetic and other methods. Its algorithm is easily performed and is espe- 
cially suitable for computerizing. . 

Key words Cladistic classilfication; Numerical taxonomy 


